Initial Impressions of ChatGPT’s Agent: Successful, Shaky, and Slow ChatGPT代理的精細化體驗

The Task: Book a Business Lunch
任務:預訂商務午餐

起始提示詞如下:

“Find a restaurant suitable for a business lunch near 3100 Travis St, Houston, TX 77006 for next friday at noon.

“找一家適合商務午餐的餐廳,地址在3100 Travis St, Houston, TX 77006,時間是下週五中午。”

這是故意模仿普通人日常說話的方式但不精確的需求。測試目的是看AI在資訊不足時能否表現良好,以及它是否會主動詢問重要的補充問題。比如:這頓飯的預算是多少?這是與同行的一次輕鬆午餐,還是一場昂貴的慶祝活動?人們將如何到達?足夠的停車空間或便捷的公交?餐廳提供何種食物?參與者有無特殊飲食偏好或限制?總共有幾位參與者?是一對一會面還是需要包間?

然而,ChatGPT並未提問任何補充內容而是直接執行任務

Step 1Search for Restaurants搜尋餐廳

ChatGPT用了6分鐘時間、呼叫了96個資訊源(如Yelp、OpenTable、Instagram等),進行了大量搜尋。

✓ GPT會自動關閉網頁幹擾元素(如彈窗、錨點跳轉等)並透過截圖方式記錄關鍵頁面。✓

它推薦了3家餐廳,並生成了比較表格,包含:

× 但缺少選單與價格。連結跳轉不一致,有時是截圖,有時是網址,體驗不夠直觀。

Step 2Access the Restaurant Website訪問餐廳官網

“Let’s book a table at Brennan’s.”
預訂布倫南餐廳。

× ChatGPT嘗試開啟官網,但被錯誤地重定向至Google地圖頁面。花了55秒後成功解決問題,並表示將繼續。

Step 3Clarify the Guest Count確認人數與過敏資訊

ChatGPT提出確認用餐人數,使用者答覆“兩人”,並補充“其中一人有貝類過敏”。ChatGPT未進一步詢問是誰過敏,也未詢問具體過敏內容,但後續表現令人驚喜。

Step 4Book the Reservation填寫預訂表單

× 耗時過長:整整11分鐘完成操作(人類僅需約2分鐘);

✓ ChatGPT在處理下拉選單和選擇時間時困難。最初錯選了"12:15"後才糾正。當12:00不可預訂時,自行選擇了12:15並告知變動,同時列出其他可選時間(11:45和12:30)。

✓ ChatGPT聰明地處理了過敏資訊。雖然使用者沒說是誰過敏,它預設是使用者本人,並正確選擇了"貝類過敏"選項。

ChatGPT成功使用了不友好的網頁設計,包括奇怪的滑動按鈕和放在頂部的"儲存"/"取消"按鈕(這種設計連人類都覺得困惑)。儘管如此,ChatGPT還是順利完成了任務。

Step 5Enter Details with Human Intervention人工補全個人資訊

✓ 當表單需要填寫使用者個人資訊時,ChatGPT自動停下並提示使用者接手。這屬於“人類參與其中(human-in-the-loop)”設計,確保AI不擅自處理敏感資料。

× 但網頁視窗解析度較低,填寫體驗不佳,無法放大頁面,稍有不便。

Step 6Submit Reservation提交前確認

✓ 一旦我將控制權交還給 ChatGPT,它花了一分鐘來審查填好的表格,然後問我:“我現在可以繼續提交[預訂]嗎?”這屬於“決策門(decision gate)”,即在執行高風險操作前要求使用者確認。

Step 7Confirm Reservation提交併確認預訂

儘管ChatGPT在填寫和提交預訂表單的過程中出現了超時(超過了網站設定的“10分鐘保留時限”),但餐廳的網站仍然接受了這次預訂,併傳送了確認郵件。

Overall 總結評估

成功之處

問題與侷限: